بهبود ویژگی ها با استفاده از الگوریتم های تکاملی برای بازشناسی مقاوم گفتار
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - پژوهشکده برق و کامپیوتر
- نویسنده محمدحسین حسینی امینی
- استاد راهنما بابک ناصرشریف
- سال انتشار 1392
چکیده
متداول ترین و کاراترین ویژگی ها برای بازشناسی گفتار، ضرایب فرکانسی مل کپستروم هستند. این ویژگی ها از طریق اعمال تبدیل کسینوسی گسسته بر لگاریتم انرژیخروجی های بانک فیلترِ مِل بدست می آیند. تبدیل کسینوسی گسسته در حالت کلی در فشرده سازی و ناهمبسته سازی دادهها به صورت نیمه بهینه عمل می کند. این موضوع یکی از علل کاهش عملکرد ویژگی های مل کپستروم در محیطی است که نویزهای جمع پذیر وجود دارند. در این رساله پیشنهاد می شود که با جایگزینی توابع تخمینی حاصل از برنامه نویسی ژنتیک به جای تبدیل کسینوسی گسسته بر ضعف های یاد شده غلبه شود. پنج تابع برازش مختلف برای برنامه ریزی ژنتیک در این مقاله مورد استفاده قرار گرفته است. تابع اول با هدف تعامد لگاریتم انرژی خروجی های بانک فیلترِ مِل، تابع دوم با هدف دوم قطری سازی ماتریس کواریانس آن ها ، و تابع سوم برای افزایش پراکندگی بین کلاسی و کاهش پراکندگی درون کلاسی (معیار فیشر) مد نظر قرار گرفته است. تابع چهارم از ترکیب دو تابع اول و سوم مذکور در فوق و تابع پنجم از ترکیب توابع دوم و سوم به دست می آید. نتایج بدست آمده بر روی پایگاه داده گفتار aurora 2 نشان می دهد که هر پنج تابع پیشنهادی سبب افزایش دقت بازشناسی نسبت به روش استاندارد استخراج ضرایب مل کپستروم و نیز استفاده از آنالیز مولفه های اصلی به همراه این ضرایب می گردد. علاوه بر اینکه در بین این پنج تابع برازندگی، تابع پنجم که قطری سازی ماتریس کوواریانس لگاریتم های انرژی زیرباندهای مل را توام با معیار فیشر در نظر می گیرد، موفق تر از بقیه عمل می کند. افزایش متوسط درصد بازشناسی بر روی سه مجموعه دادگان aurora 2 به میزان 20% نسبت به ضرایب مل کپستروم گواهی بر این ادعا است.
منابع مشابه
روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه
Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...
متن کاملطراحی فیلترهای توری پراشی با استفاده از الگوریتم های تکاملی
چکیده: فیلترهای توری پراشی نوع جدیدی از فیلترهای نوری هستند که بر مبنای تشدیدی مود هدایتشده هستند و دارای کاربردهای روزافزونی در آشکارسازها، پردازشگرهای نوری، تزویجکنندهها و غیره هستند. هدف از طراحی این فیلترها انتخاب مناسب پارامترهای هندسی است. با انتخاب دقیق این پارامترها، فیلترهایی با بازدهی بالا در یک فرکانس رزونانس طراحی میشوند. طراحی این فیلترها با ویژگیهای طیفی دقیق موضوعی جالب و در...
متن کاملبهبود نرخ بازشناسی گفتار در شرایط نویزی با استفاده از روش های غیرخطی تبدیل ویژگی
یکی از مراحل اصلی در روند بازشناسی گفتار، استخراج ویژگی ها می باشد. در حقیقت ویژگی های مربوط به نمونه های هر کلاس باید بگونه ای از کلاس های دیگر متمایز شده باشند که سیستم بازشناسی گفتار در شرایط مختلف مانند نویز نیز عملکرد مناسبی از خود نشان دهد. تبدیل ویژگی می تواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. روش های تبدیل ویژگی را می توان به دو گروه خطی و غیرخطی تقسیم نمود. و...
15 صفحه اولبازشناسی مقاوم گفتار با استفاده از ویژگی الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP
ویژگی الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژ...
متن کاملروش های اتصال گرای جدید بر گرفته از سامانه ادراک گفتار انسان به منظور بهبود بازشناسی گفتار ماشینی
بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد...
متن کاملبهبود کیفیت گفتار مبتنی بر بهینهسازی ازدحام ذرات با استفاده از ویژگی های ماسک گذاری سیستم شنوائی انسان
چکیده: در این مقاله، روشهای دوکاناله جدید زیرفضایی سیگنال با استفاده از تکنیکهای حذف نویز ادراکی برای بهبود کیفیت سیگنال گفتار پیشنهاد شدهاند. روشهای پیشنهادی از مشخصات ماسکگذاری سیستم شنوایی انسان برای کاهش نویز باقیمانده قابلشنیدن بهره میگیرند. روش تجزیه به مقادیر منفرد کسری ادراکی، تکنیک بهینهسازی ذرات را برای تخمین نویز جمعی استفاده میکند. نتایج شبیهسازی دقیقی که توسط دو معیار مخ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - پژوهشکده برق و کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023